Принятие решений при наличии нескольких агентов: теория игр

Копия Глава 17. Принятие сложных решений

Страница 8 из 14

• Теперь предположим, что правила изменились таким образом, что свою стратегию вынужден раскрывать игрок О, а за ним следует игрок Е. В таком случае минимаксное значение этой игры становится равным, а поскольку игра складывается в пользу игрока е, то известно, что полезность U самое большее равна. При использовании чистых стратегий это значение равно +2 (см. рис. 17.9, б), поэтому известно, что

Рассматривая эти два предположения совместно, можно прийти к заключению, что истинная полезность U рассматриваемого решения должна удовлетворять следующему неравенству:

Чтобы точно определить значение U, необходимо перейти к анализу смешанных стратегий. Вначале отметим следующее: как только первый игрок раскрыл свою стратегию, второй игрок не может проиграть, ведя игру согласно чистой стратегии. Причина этого проста — если второй игрок ведет игру на основе смешанной стратегии,, то ожидаемая полезность этой игры представляет собой линейную комбинациюполезностей чистых стратегий и. Эта линейная комбинация ни при каких условиях не будет лучше по сравнению с лучшим из значений, поэтому второй игрок вполне может просто выбрать для ведения игры чистую стратегию.

С учетом этого замечания минимаксные деревья можно рассматривать как имеющие бесконечное количество ветвей, исходящих от корня, которые соответствуют бесконечному количеству смешанных стратегий, доступных для выбора первым игроком. Каждая из этих ветвей ведет к узлу с двумя ветвями, соответствующими чистым стратегиям для второго игрока. Эти бесконечные деревья можно изобразить как конечные, предусмотрев один "параметризованный" выбор у корня, как описано ниже.

• Ситуация, возникающая, если игрок Ε ходит первым, показана на рис. 17.9, в. Игрок Ε делает из корневой позиции ход [р: one; (1-р) : two], а затем игрок О выбирает ход с учетом значения р. Если игрок о выбирает ход one, то ожидаемое вознаграждение (для Е) становится равным 2р-3 (1-р) =5р-3; если игрок О выбирает ход two, то ожидаемое вознаграждение равно -3р+4 (1-р) =4-7р. Зависимости, выражающие величину этих двух вознаграждений, можно изобразить в виде прямых линий на графике, где ρ изменяется от 0 до 1 вдоль оси х, как показано на рис. 17.9, д. Игрок О, минимизирующий стоимость игры, должен всегда выбирать наименьшее значение на двух прямых линиях, как показано на этом рисунке жирными отрезками прямых. Поэтому наилучшее решение, которое может принять игрок Ε, выбирая ход, подлежащий выполнению из корневой позиции, состоит в том, чтобы выбрать значение р, соответствующее точке пересечения и определяемое следующим образом:

д)

Рис. 17.9. Анализ игры с двумя игроками: минимаксные деревья игры в нет и нечет на двух пальцах, если игроки ходят по очереди, ведя игру на основе чистых стратегий (а), (б); параметризованные деревья игры, в которой первый игрок использует смешанную стратегию, причем вознаграждения зависят от параметра вероятности (р или q) в смешанной стратегии (в), (г); для любого конкретного значения параметра вероятности второй игрок выбирает "наилучшее" этих двух действий, поэтому значение для смешанной стратегии первого игрока задается жирными линиями; первый игрок выбирает параметр вероятности для смешанной стратегии в точке пересечения (д), (е)

<< В начало < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Следующая > В конец >>